{
 "cells": [
  {
   "cell_type": "markdown",
   "id": "f4fcb70f-64d7-4d0b-a83d-359ce0586581",
   "metadata": {},
   "source": [
    "**1.在第2章的第一个例子中，统计人员说:“是的，字段2和3也有不少问题。”从所显示的三行样本数据，你能解释她为什么这样说吗?**"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "8d8065d9-10f5-4719-a5a3-9f15b9cac907",
   "metadata": {},
   "source": [
    "字段2的数值为33.5、16.9和24.0。这些数值之间存在一定的差异，但没有明显的递增或递减趋势。33.5相对于其他两个数值较高，可能需要进一步分析这个值是否是异常值，或者是否代表了某种特殊的情况。如果这些数据来自一个预期具有特定分布（如正态分布）的过程，那么这种分散可能表明数据的变异性较大  \n",
    "字段3的数值为0、2和0，有明显的二元特征，其中0和2可能代表某种属性的缺失或存在。在这三个数据点中，有两个是0，一个是2。如果这个字段确实应该是二元的，那么这种变化可能表明在数据收集或记录过程中存在一致性问题。如果字段3的设计初衷是表示某种属性的存在（1）或不存在（0），那么出现2可能表示数据输入错误或编码错误。"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "63dc2b90-a23b-4f70-b2b2-6471c4808c71",
   "metadata": {},
   "source": [
    "**3.某个地方公司的销售主管与你联系，他相信他已经设计出了一种评估顾客满意度的完美方法。他这样解释他的方案:“这太简单了，我简直不敢相信，以前竟然没有人想到，我只是记录顾客对每种产品的抱怨次数，我在数据挖掘书中读到计数具有比率属性，因此，我的产品满意度度量必定具有比率属性。但是，当我根据顾客满意度度量评估产品并拿给老板看时，他说我忽略了显而易见的东西，说我的度量毫无价值。我想，他简直是疯了，没发现我们的畅销产品满意度最差，因为对它的抱怨最多。你能帮助我摆平他吗?”  \n",
    "(a)谁是对的，销售主管还是他的老板?如果你的回答是他的老板，你需要做些什么来\n",
    "修正满意度度量?  \n",
    "(b)对于原来的产品满意度度量的属性类型，你的想法是什么?**"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "d7e4fc71-25dd-4fb0-95f2-cfda9c4b3ccb",
   "metadata": {},
   "source": [
    "答：  \n",
    "(a)在这个情况下，销售主管的老板是对的。销售主管的方法存在一个明显的逻辑错误。仅仅记录顾客对每种产品的抱怨次数并将其视为比率属性来衡量顾客满意度是不准确的。比率属性意味着有一个绝对的零点，表示完全没有该属性，而且比率属性是有固定比例的，例如长度、重量等。抱怨次数并不满足这些条件，因为它不反映顾客满意度的绝对值，而且没有固定的比例关系。  \n",
    "要修正满意度度量，可以采取以下步骤:多维度评估：除了抱怨次数，还应该考虑其他因素，如顾客的正面反馈、产品使用频率、顾客保留率等。\n",
    "标准化和归一化：对抱怨次数进行标准化或归一化处理，使其能够与其他满意度指标在同一尺度上比较。\n",
    "相对满意度：将抱怨次数与总销售量或顾客总数进行比较，以得到一个相对满意度指标，比如抱怨率。\n",
    "调查和反馈：进行顾客满意度调查，收集定量和定性的反馈，以获得更全面的满意度度量。\n",
    "数据分析：使用统计分析方法来分析抱怨数据，识别潜在的模式和趋势，并与其他业务数据关联分  \n",
    "(b)对于原来的产品满意度度量的属性类型，我认为它更像是序数属性而不是比率属性。序数属性可以排序但不一定有固定的间隔或比例。在这个案例中，抱怨次数可以告诉我们哪些产品的抱怨更多，但不能告诉我们具体的满意度水平或者满意度之间的差异有多大。因此，将抱怨次数作为序数属性来处理可能更合适，但仍然需要结合其他指标来获得更准确的满意度度量。"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "fedf9af7-a069-4f17-874c-7e1ed32b3ef6",
   "metadata": {},
   "source": [
    "**5.你能想象一种情况，标识号对于预测是有用的吗?**"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "6f4113ff-4684-4d72-97fb-8fddd0b4cc92",
   "metadata": {},
   "source": [
    "答：标识号在数据挖掘和预测模型中扮演着重要的角色，它们有助于确保数据的完整性、准确性和分析的有效性。\n",
    "\n",
    "1. 唯一识别：在数据集中，标识号可以用来唯一地识别每个个体或对象。这对于跟踪个体随时间的变化或行为模式分析至关重要。例如，在客户购买历史数据中，每个客户的标识号可以帮助预测该客户的未来购买行为。\n",
    "2. 链接数据：标识号可以用来将不同数据源中的数据行链接到同一个实体。例如，一个人的医疗记录可能分布在不同的数据库中，他们的标识号可以用来将这些记录汇总和分析。\n",
    "3. 分组和聚合：在进行群体分析时，标识号可以帮助将数据分组和聚合。例如，根据邮政编码或地区标识号对客户进行分组，以分析不同地区的销售趋势。\n",
    "4. 时间序列分析：在时间序列分析中，标识号可以帮助识别和跟踪个体随时间的行为变化，这对于预测股票价格、天气变化或疾病传播等非常关键。\n",
    "5. 关联分析：在某些情况下，标识号可以用来识别和分析不同实体之间的关系。例如，在社交网络分析中，用户的标识号可以用来识别和分析社交联系。\n",
    "6. 异常检测：在欺诈检测或其他安全相关的预测任务中，标识号可以用来识别异常行为模式，比如信用卡欺诈或网络安全威胁。\n",
    "7. 个性化推荐：在推荐系统中，用户的标识号可以用来提供个性化的推荐，通过分析用户的历史行为来预测他们可能感兴趣的产品或服务。\n",
    "8. 因果关系分析：在某些情况下，标识号可以帮助识别因果关系，尤其是在实验设计中，标识号可以用来将实验组和对照组的结果进行比较。"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "01ef2644-b913-41de-a166-4faabf254e07",
   "metadata": {},
   "source": [
    "**19.对于下面的向量x和y,计算指定的相似性或距离度量。  \n",
    "(a)x=(1,1,1,1),y=(2,2,2,2)余弦、相关、欧几里得。  \n",
    "(b)x=(0,1,0,1),y=(1,0,1,0)余弦、相关、欧几里得、Jaccard。  \n",
    "(c)x=(0,-1,0,1),y=(1,0,-1,0)余弦、相关、欧几里得。  \n",
    "(d)x=(1,1,0,1,0,1),y=(1,1,1,0,0,1)余弦、相关、Jaccard。  \n",
    "(e)x=(2,-1,0,2,0,-3),y=(-1,1,-1,0,0,-1)余弦、相关。**"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "37829857-1340-4b0d-b92b-4a7f5c95bceb",
   "metadata": {},
   "source": [
    "答：  \n",
    "**(a)**  \n",
    "余弦相似度：\n",
    "\\begin{align*}\n",
    "\\cos(\\theta)&=\\frac{\\sum_{i = 1}^{n}x_{i}y_{i}}{\\sqrt{\\sum_{i = 1}^{n}x_{i}^{2}}\\sqrt{\\sum_{i = 1}^{n}y_{i}^{2}}}\\\\\n",
    "&=\\frac{1\\times2 + 1\\times2 + 1\\times2 + 1\\times2}{\\sqrt{1^{2}+1^{2}+1^{2}+1^{2}}\\sqrt{2^{2}+2^{2}+2^{2}+2^{2}}}\\\\\n",
    "&=\\frac{8}{\\sqrt{4}\\sqrt{16}} = 1\n",
    "\\end{align*}\n",
    "相关系数：\n",
    "\\begin{align*}\n",
    "r_{xy}&=\\frac{\\sum_{i = 1}^{n}(x_{i}-\\overline{x})(y_{i}-\\overline{y})}{\\sqrt{\\sum_{i = 1}^{n}(x_{i}-\\overline{x})^{2}}\\sqrt{\\sum_{i = 1}^{n}(y_{i}-\\overline{y})^{2}}}\\\\\n",
    "\\overline{x}&=\\frac{1 + 1 + 1 + 1}{4} = 1\\\\\n",
    "\\overline{y}&=\\frac{2 + 2 + 2 + 2}{4} = 2\\\\\n",
    "r_{xy}&=\\frac{(1 - 1)(2 - 2)+(1 - 1)(2 - 2)+(1 - 1)(2 - 2)+(1 - 1)(2 - 2)}{\\sqrt{(1 - 1)^{2}+(1 - 1)^{2}+(1 - 1)^{2}+(1 - 1)^{2}}\\sqrt{(2 - 2)^{2}+(2 - 2)^{2}+(2 - 2)^{2}+(2 - 2)^{2}}}=1\n",
    "\\end{align*}  \n",
    "欧几里得距离：\n",
    "$d(x,y)=\\sqrt{\\sum_{i = 1}^{n}(x_{i}-y_{i})^{2}}=\\sqrt{(1 - 2)^{2}+(1 - 2)^{2}+(1 - 2)^{2}+(1 - 2)^{2}}=\\sqrt{4} = 2  $\n",
    "**(b)**\n",
    "余弦相似度：\n",
    "\\begin{align*}\n",
    "\\cos(\\theta)&=\\frac{\\sum_{i = 1}^{n}x_{i}y_{i}}{\\sqrt{\\sum_{i = 1}^{n}x_{i}^{2}}\\sqrt{\\sum_{i = 1}^{n}y_{i}^{2}}}\\\\\n",
    "&=\\frac{0\\times1 + 1\\times0 + 0\\times1 + 1\\times0}{\\sqrt{0^{2}+1^{2}+0^{2}+1^{2}}\\sqrt{1^{2}+0^{2}+1^{2}+0^{2}}}=0\n",
    "\\end{align*}\n",
    "相关系数：\n",
    "\\begin{align*}\n",
    "r_{xy}&=\\frac{\\sum_{i = 1}^{n}(x_{i}-\\overline{x})(y_{i}-\\overline{y})}{\\sqrt{\\sum_{i = 1}^{n}(x_{i}-\\overline{x})^{2}}\\sqrt{\\sum_{i = 1}^{n}(y_{i}-\\overline{y})^{2}}}\\\\\n",
    "\\overline{x}&=\\frac{0 + 1 + 0 + 1}{4}=\\frac{1}{2}\\\\\n",
    "\\overline{y}&=\\frac{1 + 0 + 1 + 0}{4}=\\frac{1}{2}\\\\\n",
    "r_{xy}&=\\frac{(0-\\frac{1}{2})(1-\\frac{1}{2})+(1-\\frac{1}{2})(0-\\frac{1}{2})+(0-\\frac{1}{2})(1-\\frac{1}{2})+(1-\\frac{1}{2})(0-\\frac{1}{2})}{\\sqrt{(0-\\frac{1}{2})^{2}+(1-\\frac{1}{2})^{2}+(0-\\frac{1}{2})^{2}+(1-\\frac{1}{2})^{2}}\\sqrt{(1-\\frac{1}{2})^{2}+(0-\\frac{1}{2})^{2}+(1-\\frac{1}{2})^{2}+(0-\\frac{1}{2})^{2}}}=-1\n",
    "\\end{align*}\n",
    "欧几里得距离：\n",
    " \n",
    "\n",
    "$d(x,y)=\\sqrt{\\sum_{i = 1}^{n}(x_{i}-y_{i})^{2}}=\\sqrt{(0 - 1)^{2}+(1 - 0)^{2}+(0 - 1)^{2}+(1 - 0)^{2}}=\\sqrt{4} = 2$\n",
    "\n",
    " \n",
    "Jaccard相似系数：\n",
    " \n",
    "\n",
    "$J(x,y)=\\frac{|x\\cap y|}{|x\\cup y|}=\\frac{0}{4} = 0$\n",
    "\n",
    " \n",
    "**(c)**\n",
    " \n",
    "余弦相似度：\n",
    " \n",
    "\n",
    "\\begin{align*}\n",
    "\\cos(\\theta)&=\\frac{\\sum_{i = 1}^{n}x_{i}y_{i}}{\\sqrt{\\sum_{i = 1}^{n}x_{i}^{2}}\\sqrt{\\sum_{i = 1}^{n}y_{i}^{2}}}\\\\\n",
    "&=\\frac{0\\times1 + (-1)\\times0 + 0\\times(-1) + 1\\times0}{\\sqrt{0^{2}+(-1)^{2}+0^{2}+1^{2}}\\sqrt{1^{2}+0^{2}+(-1)^{2}+0^{2}}}=0\n",
    "\\end{align*}\n",
    "\n",
    " \n",
    "相关系数：\n",
    " \n",
    "\n",
    "\\begin{align*}\n",
    "r_{xy}&=\\frac{\\sum_{i = 1}^{n}(x_{i}-\\overline{x})(y_{i}-\\overline{y})}{\\sqrt{\\sum_{i = 1}^{n}(x_{i}-\\overline{x})^{2}}\\sqrt{\\sum_{i = 1}^{n}(y_{i}-\\overline{y})^{2}}}\\\\\n",
    "\\overline{x}&=\\frac{0 + (-1) + 0 + 1}{4} = 0\\\\\n",
    "\\overline{y}&=\\frac{1 + 0 + (-1) + 0}{4} = 0\\\\\n",
    "r_{xy}&=\\frac{(0 - 0)(1 - 0)+(-1 - 0)(0 - 0)+(0 - 0)(-1 - 0)+(1 - 0)(0 - 0)}{\\sqrt{(0 - 0)^{2}+(-1 - 0)^{2}+(0 - 0)^{2}+(1 - 0)^{2}}\\sqrt{(1 - 0)^{2}+(0 - 0)^{2}+(-1 - 0)^{2}+(0 - 0)^{2}}}=0\n",
    "\\end{align*}\n",
    "\n",
    "\n",
    "欧几里得距离：\n",
    " \n",
    "\n",
    "$d(x,y)=\\sqrt{\\sum_{i = 1}^{n}(x_{i}-y_{i})^{2}}=\\sqrt{(0 - 1)^{2}+(-1 - 0)^{2}+(0 - (-1))^{2}+(1 - 0)^{2}}=\\sqrt{4} = 2$\n",
    "\n",
    " \n",
    "**(d)**\n",
    " \n",
    "余弦相似度：\n",
    " \n",
    "\n",
    "\\begin{align*}\n",
    "\\cos(\\theta)&=\\frac{\\sum_{i = 1}^{n}x_{i}y_{i}}{\\sqrt{\\sum_{i = 1}^{n}x_{i}^{2}}\\sqrt{\\sum_{i = 1}^{n}y_{i}^{2}}}\\\\\n",
    "&=\\frac{1\\times1 + 1\\times1 + 0\\times1 + 1\\times0 + 0\\times0 + 1\\times1}{\\sqrt{1^{2}+1^{2}+0^{2}+1^{2}+0^{2}+1^{2}}\\sqrt{1^{2}+1^{2}+1^{2}+0^{2}+0^{2}+1^{2}}}=\\frac{3}{\\sqrt{4}\\sqrt{4}}=\\frac{3}{4}\n",
    "\\end{align*}\n",
    "\n",
    " \n",
    "相关系数：\n",
    " \n",
    "\n",
    "\\begin{align*}\n",
    "r_{xy}&=\\frac{\\sum_{i = 1}^{n}(x_{i}-\\overline{x})(y_{i}-\\overline{y})}{\\sqrt{\\sum_{i = 1}^{n}(x_{i}-\\overline{x})^{2}}\\sqrt{\\sum_{i = 1}^{n}(y_{i}-\\overline{y})^{2}}}\\\\\n",
    "\\overline{x}&=\\frac{1 + 1 + 0 + 1 + 0 + 1}{6}=\\frac{4}{6}=\\frac{2}{3}\\\\\n",
    "\\overline{y}&=\\frac{1 + 1 + 1 + 0 + 0 + 1}{6}=\\frac{4}{6}=\\frac{2}{3}\\\\\n",
    "r_{xy}&=\\frac{(1-\\frac{2}{3})(1-\\frac{2}{3})+(1-\\frac{2}{3})(1-\\frac{2}{3})+(0-\\frac{2}{3})(1-\\frac{2}{3})+(1-\\frac{2}{3})(0-\\frac{2}{3})+(0-\\frac{2}{3})(0-\\frac{2}{3})+(1-\\frac{2}{3})(1-\\frac{2}{3})}{\\sqrt{(1-\\frac{2}{3})^{2}+(1-\\frac{2}{3})^{2}+(0-\\frac{2}{3})^{2}+(1-\\frac{2}{3})^{2}+(0-\\frac{2}{3})^{2}+(1-\\frac{2}{3})^{2}}\\sqrt{(1-\\frac{2}{3})^{2}+(1-\\frac{2}{3})^{2}+(1-\\frac{2}{3})^{2}+(0-\\frac{2}{3})^{2}+(0-\\frac{2}{3})^{2}+(1-\\frac{2}{3})^{2}}}=\\frac{1}{3}\n",
    "\\end{align*}\n",
    "\n",
    " \n",
    "Jaccard相似系数：\n",
    " \n",
    "\n",
    "$J(x,y)=\\frac{|x\\cap y|}{|x\\cup y|}=\\frac{3}{6}=\\frac{1}{2}$\n",
    "\n",
    " \n",
    "**(e)**\n",
    " \n",
    "余弦相似度：\n",
    " \n",
    "\n",
    "\\begin{align*}\n",
    "\\cos(\\theta)&=\\frac{\\sum_{i = 1}^{n}x_{i}y_{i}}{\\sqrt{\\sum_{i = 1}^{n}x_{i}^{2}}\\sqrt{\\sum_{i = 1}^{n}y_{i}^{2}}}\\\\\n",
    "&=\\frac{2\\times(-1)+(-1)\\times1 + 0\\times(-1) + 2\\times0 + 0\\times0 + (-3)\\times(-1)}{\\sqrt{2^{2}+(-1)^{2}+0^{2}+2^{2}+0^{2}+(-3)^{2}}\\sqrt{(-1)^{2}+1^{2}+(-1)^{2}+0^{2}+0^{2}+(-1)^{2}}}=\\frac{-2 - 1 + 0 + 0 + 0 + 3}{\\sqrt{18}\\sqrt{4}}=0\n",
    "\\end{align*}\n",
    "\n",
    " \n",
    "相关系数：\n",
    " \n",
    "\n",
    "\\begin{align*}\n",
    "r_{xy}&=\\frac{\\sum_{i = 1}^{n}(x_{i}-\\overline{x})(y_{i}-\\overline{y})}{\\sqrt{\\sum_{i = 1}^{n}(x_{i}-\\overline{x})^{2}}\\sqrt{\\sum_{i = 1}^{n}(y_{i}-\\overline{y})^{2}}}\\\\\n",
    "\\overline{x}&=\\frac{2 + (-1) + 0 + 2 + 0 + (-3)}{6}=0\\\\\n",
    "\\overline{y}&=\\frac{-1 + 1 + (-1) + 0 + 0 + (-1)}{6}=-\\frac{1}{3}\\\\\n",
    "r_{xy}&=\\frac{(2 - 0)(-1 - (-\\frac{1}{3}))+(-1 - 0)(1 - (-\\frac{1}{3}))+(0 - 0)(-1 - (-\\frac{1}{3}))+(2 - 0)(0 - (-\\frac{1}{3}))+(0 - 0)(0 - (-\\frac{1}{3}))+(-3 - 0)(-1 - (-\\frac{1}{3}))}{\\sqrt{(2 - 0)^{2}+(-1 - 0)^{2}+(0 - 0)^{2}+(2 - 0)^{2}+(0 - 0)^{2}+(-3 - 0)^{2}}\\sqrt{(-1 - (-\\frac{1}{3}))^{2}+(1 - (-\\frac{1}{3}))^{2}+(-1 - (-\\frac{1}{3}))^{2}+(0 - (-\\frac{1}{3}))^{2}+(0 - (-\\frac{1}{3}))^{2}+(-1 - (-\\frac{1}{3}))^{2}}}\n",
    "\\end{align*}\n",
    "\n",
    " \n",
    "\n",
    "=\\frac{2\\times(-\\frac{2}{3})+(-1)\\times\\frac{4}{3}+0 + 2\\times\\frac{1}{3}+0 + (-3)\\times(-\\frac{2}{3})}{\\sqrt{18}\\sqrt{\\frac{8}{3}}}=0"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "id": "3b1aaefe-db7d-45e2-9c98-82c3baddda17",
   "metadata": {},
   "outputs": [],
   "source": []
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "Python 3 (ipykernel)",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.12.4"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 5
}
